智能论文笔记

Biomedical image analysis competitions: The state of current participation practice

Matthias Eisenmann , Annika Reinke , Vivienn Weru , Minu Dietlinde Tizabi , Fabian Isensee , Tim J. Adler , Patrick Godau , Veronika Cheplygina , Michal Kozubek , Sharib Ali

分类：计算机视觉 | 机器学习

2022-12-16

The number of international benchmarking competitions is steadily increasing in various fields of machine learning (ML) research and practice. So far, however, little is known about the common practice as well as bottlenecks faced by the community in tackling the research questions posed. To shed light on the status quo of algorithm development in the specific field of biomedical imaging analysis, we designed an international survey that was issued to all participants of challenges conducted in conjunction with the IEEE ISBI 2021 and MICCAI 2021 conferences (80 competitions in total). The survey covered participants' expertise and working environments, their chosen strategies, as well as algorithm characteristics. A median of 72% challenge participants took part in the survey. According to our results, knowledge exchange was the primary incentive (70%) for participation, while the reception of prize money played only a minor role (16%). While a median of 80 working hours was spent on method development, a large portion of participants stated that they did not have enough time for method development (32%). 25% perceived the infrastructure to be a bottleneck. Overall, 94% of all solutions were deep learning-based. Of these, 84% were based on standard architectures. 43% of the respondents reported that the data samples (e.g., images) were too large to be processed at once. This was most commonly addressed by patch-based training (69%), downsampling (37%), and solving 3D analysis tasks as a series of 2D tasks. K-fold cross-validation on the training set was performed by only 37% of the participants and only 50% of the participants performed ensembling based on multiple identical models (61%) or heterogeneous models (39%). 48% of the respondents applied postprocessing steps.

translated by 谷歌翻译

EBHI-Seg: A Novel Enteroscope Biopsy Histopathological Haematoxylin and Eosin Image Dataset for Image Segmentation Tasks

Liyu Shi , Xiaoyan Li , Weiming Hua , Haoyuan Chen , Jing Chen , Zizhen Fan , Minghe Gao , Yujie Jing , Guotao Lu , Deguo Ma

分类：计算机视觉

2022-12-01

Background and Purpose: Colorectal cancer is a common fatal malignancy, the fourth most common cancer in men, and the third most common cancer in women worldwide. Timely detection of cancer in its early stages is essential for treating the disease. Currently, there is a lack of datasets for histopathological image segmentation of rectal cancer, which often hampers the assessment accuracy when computer technology is used to aid in diagnosis. Methods: This present study provided a new publicly available Enteroscope Biopsy Histopathological Hematoxylin and Eosin Image Dataset for Image Segmentation Tasks (EBHI-Seg). To demonstrate the validity and extensiveness of EBHI-Seg, the experimental results for EBHI-Seg are evaluated using classical machine learning methods and deep learning methods. Results: The experimental results showed that deep learning methods had a better image segmentation performance when utilizing EBHI-Seg. The maximum accuracy of the Dice evaluation metric for the classical machine learning method is 0.948, while the Dice evaluation metric for the deep learning method is 0.965. Conclusion: This publicly available dataset contained 5,170 images of six types of tumor differentiation stages and the corresponding ground truth images. The dataset can provide researchers with new segmentation algorithms for medical diagnosis of colorectal cancer, which can be used in the clinical setting to help doctors and patients.

translated by 谷歌翻译

Hybrid Multimodal Fusion for Humor Detection

Haojie Xu , Weifeng Liu , Jingwei Liu , Mingzheng Li , Yu Feng , Yasi Peng , Yunwei Shi , Xiao Sun , Meng Wang

分类：机器学习 | 人工智能 | 自然语言处理

2022-09-24

在本文中，我们将解决方案介绍给Muse-Humor的多模式情感挑战（MUSE）2022的邮件，库穆尔人子挑战的目标是发现幽默并从德国足球馆的视听录音中计算出AUC新闻发布会。它是针对教练表现出的幽默的注释。对于此子挑战，我们首先使用变压器模块和BilstM模块构建一个判别模型，然后提出一种混合融合策略，以使用每种模式的预测结果来提高模型的性能。我们的实验证明了我们提出的模型和混合融合策略对多模式融合的有效性，并且我们在测试集中提出的模型的AUC为0.8972。

translated by 谷歌翻译

Multi-modal Contrastive Representation Learning for Entity Alignment

Zhenxi Lin , Ziheng Zhang , Meng Wang , Yinghui Shi , Xian Wu , Yefeng Zheng

分类：自然语言处理 | 人工智能 | 机器学习

2022-09-02

多模式实体对齐旨在确定两个不同的多模式知识图之间的等效实体，这些实体由与实体相关的结构三元组和图像组成。大多数先前的作品都集中在如何利用和编码不同模式中的信息，而由于模态异质性，因此在实体对齐中利用多模式知识并不是微不足道的。在本文中，我们提出了基于多模式对比度学习的实体比对模型McLea，以获得多模式实体对准的有效联合表示。与以前的工作不同，麦克莱尔（McLea）考虑了面向任务的模式，并为每个实体表示形式建模模式间关系。特别是，麦克莱（McLea）首先从多种模式中学习多个单独的表示，然后进行对比学习以共同对模式内和模式间相互作用进行建模。广泛的实验结果表明，在受监督和无监督的设置下，MCLEA在公共数据集上优于公共数据集的最先进的基线。

translated by 谷歌翻译

HTML版本

3D Path Planning and Obstacle Avoidance Algorithms for Obstacle-Overcoming Robots

Yuanhao huang , Shi Huang , Hao Wang , Ruifeng Meng

分类：机器人

2022-09-02

本文介绍了一种多模式运动计划（MMP）算法，该算法结合了三维（3-D）路径计划和DWA障碍避免算法。该算法旨在计划复杂的非结构化场景中超越障碍物的机器人的路径和运动。提出了一种新颖的A-Star算法来结合非结构化场景的特征，并将其切换为贪婪的最佳优先策略算法的策略。同时，路径计划的算法与DWA算法集成在一起，因此机器人可以在沿着全球计划的路径运动过程中执行局部动态障碍。此外，当提议的全球路径计划算法与局部障碍算法结合使用时，机器人可以在避免障碍物和克服障碍物后纠正道路。具有几个复杂环境的工厂中的仿真实验验证了算法的可行性和鲁棒性。该算法可以迅速为超越障碍物的机器人生成合理的3D路径，并在考虑场景和运动障碍物的特征的前提下进行可靠的当地障碍。

translated by 谷歌翻译

Content-oriented learned image compression

Meng Li , Shangyin Gao , Yihui Feng , Yibo Shi , Jing Wang

分类：计算机视觉

2022-07-28

近年来，随着深度神经网络的发展，端到端优化的图像压缩已取得了重大进展，并超过了速度延伸性能的经典方法。但是，大多数基于学习的图像压缩方法是未标记的，在优化模型时不考虑图像语义或内容。实际上，人眼对不同内容具有不同的敏感性，因此还需要考虑图像内容。在本文中，我们提出了一种面向内容的图像压缩方法，该方法处理具有不同策略的不同类型的图像内容。广泛的实验表明，与最先进的端到端学习的图像压缩方法或经典方法相比，所提出的方法可实现竞争性的主观结果。

translated by 谷歌翻译

Fine-Tuning BERT for Automatic ADME Semantic Labeling in FDA Drug Labeling to Enhance Product-Specific Guidance Assessment

Yiwen Shi , Jing Wang , Ping Ren , Taha ValizadehAslani , Yi Zhang , Meng Hu , Hualou Liang

分类：自然语言处理 | 人工智能 | 机器学习

2022-07-25

美国食品药品监督管理局（FDA）推荐的产品特定指南（PSG）对促进和指导通用药物产品开发有助于。为了评估PSG，FDA评估者需要花费大量时间和精力来手动从参考列出的药物标签中手动检索吸收，分布，代谢和排泄（ADME）的支持性药物信息。在这项工作中，我们利用最先进的预训练的语言模型自动将来自FDA批准的药物标签的药代动力学部分中的ADME段落标记，以促进PSG评估。我们通过微调从变形金刚（BERT）模型的预训练的双向编码器表示，采用了转移学习方法来开发新颖的ADME语义标签应用，可以自动从药物标签中自动检索ADME段落而不是手动工作。我们证明，对预训练的BERT模型进行微调可以胜过传统的机器学习技术，实现高达11.6％的绝对F1改进。据我们所知，我们是第一个成功应用BERT来解决ADME语义标签任务的人。我们进一步评估了使用一系列分析方法，例如注意力相似性和基于层的消融，进一步评估了预训练和微调对BERT模型整体性能的相对贡献。我们的分析表明，通过微调学到的信息集中在BERT的顶层中的特定于任务知识上，而预先训练的BERT模型的好处来自底层。

translated by 谷歌翻译

Two-Stage Fine-Tuning: A Novel Strategy for Learning Class-Imbalanced Data

Taha ValizadehAslani , Yiwen Shi , Jing Wang , Ping Ren , Yi Zhang , Meng Hu , Liang Zhao , Hualou Liang

分类：自然语言处理

2022-07-22

长尾分布式数据的分类是一个具有挑战性的问题，它遭受了严重的班级不平衡，因此只有几个样本的尾巴阶级表现不佳。由于样本的匮乏，在将预审计的模型转移到下游任务时，在尾部类中学习对于微调尤其具有挑战性。在这项工作中，我们简单地修改了标准微调，以应对这些挑战。具体而言，我们提出了一个两阶段的微调：我们首先用类平衡的重新释放损失微调了预审计模型的最后一层，然后我们执行标准的微调。我们的修改有几个好处：（1）仅通过微调模型参数的一小部分，同时保持其余部分未触及，从而利用了预告片；（2）它允许模型学习特定任务的初始表示；重要的是（3）它可以保护学习尾巴的学习免于模型更新期间处于不利地位。我们对文本分类的两类和多级任务的合成数据集进行了广泛的实验，以及用于ADME的现实世界应用（即吸收，分布，代谢和排泄）语义标记。实验结果表明，所提出的两阶段微调既优于传统损失，又超过了微调，并且在上述数据集上进行了重新调整损失。

translated by 谷歌翻译

Language-specific Characteristic Assistance for Code-switching Speech Recognition

Tongtong Song , Qiang Xu , Meng Ge , Longbiao Wang , Hao Shi , Yongjie Lv , Yuqin Lin , Jianwu Dang

分类：自然语言处理

2022-06-29

双重编码器结构成功地利用了两个特定语言的编码器（LSE）进行代码转换语音识别。由于LSE由两个预训练的语言特定模型（LSM）初始化，因此双编码器结构可以利用足够的单语言数据并捕获单个语言属性。但是，现有方法对LSE的语言没有限制，并且不足以针对LSM的语言知识。在本文中，我们提出了一种特定语言的特征辅助（LSCA）方法来减轻上述问题。具体来说，在培训期间，我们引入了两种特定语言的损失作为语言限制，并为其生成相应的语言目标。在解码过程中，我们通过组合两个LSM和混合模型的输出概率来考虑LSM的解码能力，以获得最终预测。实验表明，LSCA的训练或解码方法可以改善模型的性能。此外，通过组合LSCA的训练和解码方法，最佳结果可以在代码切换测试集上获得多达15.4％的相对误差。此外，该系统可以通过使用我们的方法来很好地处理代码转换语音识别任务，而无需额外的共享参数，甚至可以基于两个预训练的LSM进行重新训练。

translated by 谷歌翻译

Key-frame Guided Network for Thyroid Nodule Recognition using Ultrasound Videos

Yuchen Wang , Zhongyu Li , Xiangxiang Cui , Liangliang Zhang , Xiang Luo , Meng Yang , Shi Chang

分类：计算机视觉

2022-06-27

超声检查广泛用于甲状腺结节（良性/恶性）的临床诊断。但是，准确性在很大程度上取决于放射科医生的经验。尽管已经研究了甲状腺结节识别的深度学习技术。当前的解决方案主要基于静态超声图像，其时间信息有限，并且与临床诊断不一致。本文提出了一种通过详尽的超声视频和钥匙框架进行详尽的探索来自动识别甲状腺结节的新方法。我们首先提出一个检测 - 定位框架，以自动识别每个超声视频中典型结节的临床密钥框架。根据本地化的键框架，我们为甲状腺结节识别开发了一个钥匙框引导的视频分类模型。此外，我们引入了运动注意模块，以帮助网络关注超声视频中的重要帧，这与临床诊断一致。拟议的甲状腺结节识别框架已在临床收集的超声视频上进行了验证，与其他最先进的方法相比，表现出卓越的性能。

translated by 谷歌翻译